Example-based NLP for Minority Languages: Tasks, Resources and Tools

نویسندگان

  • Oliver Streiter
  • Ernesto William De Luca
چکیده

Dans cet exposé nous analysons la relation entre le traitement automatique des langues minoritaires et les approches au Traitement des Langues Naturelles. Nous donnons un apperçu des tâches qui ont été affrontées et des approches utilisées. Vu que les ressources linguistiques sont limitées (telles que les dictionnaires et les corpus), le MLP emploie souvent des approches basées sur des règles, bien qu’elles demandent un investissement temporaire immense. L’approche statistique peut être plus efficace à condition que des corpora appropriés soient accessibles. Comme deuxième alternative nous présentons l’approche baseé sur des examples. L’avantage de cette approche est de nécessiter des ressources linguistiques plus petites et d’intégrer un module d’apprentissage. Nous démontrons que presque toutes les tâches usuelles du TALN peuvent être affrontées par cette approche. Des ressources linguistiques et des outils sont souvent librement disponibles.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages

Annotated corpora are sets of structured text used to enable Natural Language Processing (NLP) tasks. Annotations may include tagged parts-of-speech, semantic concepts assigned to phrases, or semantic relationships between these concepts in text. Building annotated corpora is labor-intensive and presents a major obstacle to advancing machine translators, named entity recognizers (NER), part-ofs...

متن کامل

Fast Development of Basic NLP Tools: Towards a Lexicon and a POS Tagger for Kurmanji Kurdish

The development of basic NLP resources for minority languages is still a challenge to both formal and computational linguists. In this paper, we show how we were able to develop a medium-scale morphological lexicon for Kurmanji Kurdish in a few days time using only freely accessible resources. We also developed a preliminary POS tagger that shall be used as a pre-annotation tool for developing ...

متن کامل

Using GETA'S MT/NLP Resources in an Intelligent Tutoring System for French

This paper presents a project that investigates to what extent computational linguistic methods and tools used at GETA for machine translation can be used to implement novel functionalities in intelligent computer assisted language learning. Our intelligent tutoring system project is still in its early phases. The learner module is based on an empirical study of French as used by Acadian elemen...

متن کامل

Enriching Language Data through Projected Structures

This paper explores the potential for annotating and enriching data for minority or endangered languages via the alignment and projection of structure from annotated and parsed data for a resource-rich language such as English. The work presented here draws inspiration from the work of (Yarowksy and Ngai, 2001), who tested the methods for projecting linguistic annotations from one language to a...

متن کامل

روشی جدید جهت استخراج موجودیت‌های اسمی در عربی کلاسیک

In Natural Language Processing (NLP) studies, developing resources and tools makes a contribution to extension and effectiveness of researches in each language. In recent years, Arabic Named Entity Recognition (ANER) has been considered by NLP researchers due to a significant impact on improving other NLP tasks such as Machine translation, Information retrieval, question answering, query result...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2003